#exploración activa

SpatialWorld: Nuevo benchmark para razonamiento espacial interactivo

SpatialWorld es un benchmark unificado que evalúa el razonamiento espacial interactivo de modelos multimodales. GPT-5 solo logra un 17% de éxito. Descubre los desafíos.

2026-06-09 · 2 min

El primer día del agente: Evaluando aprendizaje, exploración y planificación

Descubre EvoEnv, el nuevo benchmark que evalúa a los agentes IA en entornos laborales dinámicos: planificación, exploración y aprendizaje continuo.

2026-06-03 · 2 min